
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
Character AI 是个不合时宜的故事,不再多聊。
与其说有几个框架主导了整个生态系统,不如说我们将看到更多的可组合、栈特定的生成方式,其中工具和架构可以动态组合。
“科技行业里骗子和炒作者的数量之多,令人难以置信。”面对当下火热的 AI 浪潮,Java 之父直言不讳地对背后推波助澜的炒作者们发出尖锐批评。
让我们把时钟拨回 2014 年 5 月,当刚完成博士后研究的 Dario Amodei 决定加入百度研究院(Baidu Research)时,他绝不会想到自己有朝一日能够亲手打造属于自己的 AI 帝国,并成为连谷歌和微软都无法撼动和忽视的强劲对手。
“以前需要3个月开发的网站,现在用Luna,只需3小时。”
最近你是不是也被一系列“回答我”鬼畜视频刷屏?在各种社交软件上,明明上一秒还是一张静态照片,下一秒就能扭腰转身、街舞翻跳,甚至连兵马俑都能跳Kpop。
AI,已经热了快三年了。
最近,AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上,它已经悄然超越了我们大多数人类。而当它面对真正的专家,会发生什么?
围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。